控制 单 水 平 研究 中 的 多 水 平 误 差 : 基于 设计 的 方法 
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摘 要 由 于 取样 设计 的 原因 ， 多 水 平 数据 结构 不 仅 存 在 于 多 水 平 研究 ， 也 广泛 存在 于 单 水 平 研究 ， 需 要 在 单 水 平 


分 析 中 控制 多 水 平 误差 。 此 时 使 用 多 层 线性 模型 发 挥 不 了 优势 ， 反 而 因 模 型 的 复杂 性 带 来 麻烦 。 基 于 设计 的 方法 相 
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对 更 简单 、 高 效 和 稳健 ， 更 契合 含 多 水 平 误 差 的 单 水 平 研究 情境 。 在 详细 介绍 基于 设计 的 方法 及 其 优势 后 ， 利 用 数 


据 实例 展示 基于 设计 的 方法 在 单 水 平 研究 中 控制 多 水 平 误差 的 效果 ， 并 为 应 用 研究 者 提供 方法 选用 建议 。 


关键 词 ” 单 水 平 研究 ， 多 水 平 数据 ;多 层 线性 模型 ， 基 于 设计 的 方法 


在 心理 、 教 育 和 管理 等 社 科研 究 领 域 ， 使 用 多 层 线性 模型 (hierarchical linear model, HLM) 分 析 多 
水 平 数据 很 常见 。 但 少 有 研究 者 意识 到 ， 单 水 平 研究 也 会 面 对 多 水 平 数据 的 问题 。 最 典型 的 情况 是 ， 限 
于 人 力 和 财力 成 本 ， 许 多 研究 没有 采用 随机 抽样 ， 而 是 采用 整 群 抽样 或 多 阶段 抽样 。 如 在 选 定 的 若干 学 
2 校 中 ， 抽 取 部 分 或 所 有 学 生 ， 这 种 抽样 方式 产生 的 数据 往往 是 多 水 平 结构 的 (Huang,， 2016)〉 ， 即 同一 
学 校 的 学 生 数据 观测 值 有 一 定 依存 性 。 这 时 ， 虽 然 研 究 者 的 目的 只 是 分 析 学 生 水 平 的 变量 关系 ,不 要 分 
= 析 学 校 水 平 的 变量 (高 层级 变量 ) ， 但 因 回归 误差 项 混入 了 多 水 平 变 异 〈 即 多 水 平 误差 ) ， 若 按 通常 的 
L 做 法 进行 最 小 二 乘 回 归 Cordinary least squares regression, OLS; 即 我 们 熟知 的 单 水 平 回 归 分 析 ) ， 可 能 

会 造成 参数 估计 特别 是 回归 系数 标准 误 估 计 的 偏差 (McNeish, 2014a) 。 文 献 中 将 这 种 研究 计划 外 的 多 


水 平 结构 称 为 不 经 意 的 多 水 平 结构 (incidental clustering, McNeish & Wentzel, 2017) ， 以 区 别 于 有 意 设 


计 的 多 水 平 结构 (deliberate clustering) 。 

对 这 种 单 水 平 研究 遇 到 多 水 平 数据 的 情况 ,比较 好 的 处 理 方法 是 什么 呢 ? 这 个 问题 还 少 有 研究 。 尽 
管 可 以 使 用 HLM 来 处 理 ， 却 存在 诸多 局 限 。 而 基于 设计 的 方法 (design-based methods, DBM) 恰恰 是 
为 处 理 此 类 问题 量 身 定 做 的 方法 ， 它 允许 研究 者 像 单 水 平分 析 那 样 处 理 多 水 平 数据 。 本 文 在 讨论 HLM 
局 限 的 基础 上 ， 介 绍 DBM 的 原理 和 优势 ， 并 通过 应 用 实例 展示 DBM 控制 单 水 平 研究 中 多 水 平 误差 的 
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效果 ， 最 后 为 应 用 研究 者 提供 方法 选用 建议 。 
2 HLM 处 理 单 水 平 研究 中 多 水 平 误 差 的 局 限 

当 单 水 平 研究 因为 取样 设计 的 因素 导致 数据 实际 上 存在 多 水 平 结 构 时 ， 自 然 会 想到 HLM。 但 此 时 
使 用 HLM 有 如 下 局 限 。 
2.1 优势 弱化 

如 所 知 ，HLM 处 理 多 水 平 数据 实际 上 包括 两 种 功能 : 〈1) 控制 多 水 平 误差 ， 保 证 变量 固定 效应 标 
准 误 估 计 的 准确 性 ; (2) 分 析 随 机 效应 并 针对 特定 组 的 效应 做 出 统计 推断 。 两 种 功能 中 , 前 者 并 非 HLM 
的 专利 ， 后 者 才 是 HLM 的 独 有 优势 。 然 而 ， 在 以 单 水 平 变量 关系 为 关注 点 的 研究 中 ， 随 机 效应 是 什么 
样 并 不 要 紧 ， 研 究 任务 仅仅 是 在 探讨 单 水 平 变量 关系 的 同时 控制 住 多 水 平 误差 ， 即 实现 功能 (1) 即 可 。 
这 样 ，HLM 的 优势 并 未 发 挥 。 而 且 ， 回 顾 以 往 文献 可 知 ， 即 便 在 典型 多 水 平 研究 中 ， 使 用 HLM 的 目 
的 通常 也 只 是 分 析 固 定 效应 , 随机 效应 多 作为 厌恶 因子 (nuisance factor ) 或 次 要 问题 (McNeish, 2014a) 。 
2.2 缺点 放大 

单 水 平 研究 中 ，HLM 的 优势 发 挥 不 出 来 ， 缺 点 却 进一步 放大 了 。 首 先 ，HLM 对 随机 效应 有 多 个 假 
设 。 无 论 研究 者 是 否 关注 随机 效应 ， 在 HLM 分 析 时 这 些 假 设 仍 需 满足 。 然 而 ， 在 单 水 平 研究 情境 下 ， 
由 于 不 是 特意 的 多 水 平 设 计 ， 通 常 层 2 样本 容量 不 足 ，HLM 分 析 的 有 关 假 设 更 难 满足 且 难 以 验证 。 表 
1 总 结 了 违反 有 关 随 机 效应 的 假设 时 ，HLM 对 层 1 效应 〈 即 单 水 平 变量 关系 ) 可 能 产生 的 估计 偏差 。 
虽然 这 些 潜在 偏差 仅 限 于 具体 的 模拟 情境 , 不 表示 任何 条 件 下 违反 假设 都 有 问题 。 但 至 少 说 明 在 某 些 条 
件 下 ， 不 满足 随机 效应 假设 所 带 来 的 风险 。 


表 1 HLM 涉及 随机 效应 的 假设 及 违反 假设 可 能 给 层 1 效应 分 析 带 来 的 偏差 
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‘Cu 涉及 随机 效应 的 假设 违反 假设 的 典型 情况 违反 假设 可 能 给 层 1 效应 分 析 带 来 的 偏差 
me 随机 效应 只 包含 随机 截 距 而 忽略 随机 斜率 可 归 系数 标准 误 被 低估 ， 回 归 系 数 95% 置 信 区 间 履 盖 率 偏 低 ， 第 一 类 错误 率 偏 高 
E 确 定义 组 内 残 差 的 协 方差 结构 ”组 内 残 差 方 差 非 齐 性 或 残 差 间 有 相关 回归 系数 标准 误 和 回归 系数 95% 置 信 区 间 履 盖 率 都 既 可 能 偏 高 ， 也 可 能 偏 低 
E 确 定义 随机 效应 的 协 方差 结构 ”随机 效应 方差 非 齐 性 或 随机 效应 间 有 相关 回归 系数 标准 误 和 回归 系数 95% 置 信 区 间 履 盖 率 都 既 可 能 偏 高 ， 也 可 能 偏 低 
组 内 残 差 和 随机 效应 不 相关 组 内 残 差 和 随机 效应 相关 系数 不 为 0 可 归 系 数 标准 误 可 能 被 高 估 ， 统 计 检验 力 降低 
组 内 残 差 服从 多 元 正 态 分 布 组 内 残 差 不 服从 正 态 分 布 ( 如 偏 态 分 布 或 :分 布 ) ”回归 系数 标准 误 被 低估 ， 回 归 系 数 95% 置 信 区 间 宪 盖 率 偏 低 ， 第 一 类 错误 率 偏 高 
随机 效应 服从 多 元 正 态 分 布 随机 效应 不 服从 正 态 分 布 ( 如 偏 态 分 布 或 + 分 布 ) ”回归 系数 标准 误 被 低估 ， 回 归 系 数 95% 置 信 区 间 履 盖 率 偏 低 ， 第 一 类 错误 率 偏 高 
预测 变量 与 组 内 残 差 无 关 预测 变量 和 组 内 残 差 相 关系 数 不 为 0 回归 系数 标准 误 可 能 被 高 估 ， 统 计 检验 力 降低 
预测 变量 与 随机 效应 无 关 预测 变量 和 随机 效应 相关 系数 不 为 0 可 归 系 数 标准 误 可 能 被 高 估 ， 统 计 检验 力 降低 


YE: 本 表 基 于 下 面 文献 总 结 得 到 : Huang (2016) ; Jacqmin-Gadda £ (2007) ; Litiere 等 (2007) ; McNeish (2019) ; McNeish 等 (2017) 。 


第 二 ,为 避免 因 遗 漏 必要 的 随机 效应 而 导致 估计 偏差 (McNeish, 2019) ， 有 人 建议 在 HLM 建 模 时 


尽 可 能 多 地 纳入 随机 效应 (Barr et al., 2013) ， 但 这 么 做 也 有 问题 : 即使 模型 理论 上 可 识别 ， 研 究 者 当 
前 数据 中 的 信息 也 可 能 难以 支撑 太 复 杂 的 模型 ( 即 过 参数 化 , overparameterization) ， 导 致 模型 出 现 收敛 
问题 ， 如 收敛 速度 过 慢 和 不 收敛 等 (Bates et al., 2015) 。 这 些 问题 在 各 水 平 样 本 容量 较 小 的 情况 下 更 可 
能 出 现 。 

第 三 ， 对 于 一 项 单 水 平 研 究 ， 使 用 HLM 犹如 牛刀 杀 鸡 ， 将 问题 复杂 化 。 在 理论 上 ， 需 要 认真 考虑 
是 否 加 入 和 加 入 哪些 随机 效应 ; 在 建 模 上 , 需要 分 别 指定 组 间 和 组 内 的 变量 和 模型 设 定 ; 在 结果 呈现 上 ， 
由 于 数学 公式 存在 嵌 套 关系 〈 如 层 2 BUBB ERE TR 方程 ) ， 且 需要 多 重 下 标 来 区 分 变量 和 
误差 水 平 ，HLM 经 典 的 符号 书写 体系 远 比 单 水 平 回 归 复 杂 〈 这 直接 体现 在 多 水 平 建 模 流 行 软件 HLM 
E) ; HLM 的 结果 解释 也 要 比 单 水 平 回归 复杂 。 


2.3 小结 


ul 


当 单 水 平 研究 因 抽样 设计 的 原因 导致 数据 实际 包含 多 水 平 结构 时 ,用 HLM 进行 统计 分 析 的 作用 仅 
仅 是 控制 多 水 平 误差 ， 核 心 优势 发 挥 不 出 来 ， 却 需要 研究 者 承受 因 HLM 的 复杂 性 带 来 的 困难 。 所 以 ， 
此 时 HLM 不 是 理想 的 选择 。 
3 基于 设计 的 方法 

既然 关注 的 研究 问题 仍然 是 单 水 平 问题 , 那么 , 单 水 平 研究 者 有 无 可 能 在 自己 熟悉 的 单 水 平 框架 下 
更 简单 地 处 理 这 种 实际 为 多 水 平 结构 的 数据 ? DBM 为 解决 这 个 问题 提供 了 可 能 ,通常 的 OLS 处 理 多 水 
平 数据 之 所 以 会 出 错 ， 是 因为 回归 误差 项 包含 了 多 水 平 变异 ， 导 致 回归 系数 标准 误 误 估 ， 进而 使 显著 性 
检验 出 现 偏差 。HLM 通过 将 变量 和 回归 误差 分 解 到 不 同 层级 而 解决 了 多 水 平 误差 问题 DBM 采用 不 同 
策略 ， 即 校正 而 不 是 分 解 回归 误差 项 ， 同 样 可 以 准确 估计 标准 误 。 其 本 质 是 控制 了 多 水 平 误差 的 单 水 平 
可 归 。 这 种 特殊 的 单 水 平 回归 充分 考虑 到 了 复杂 抽样 设计 数据 特征 ( 即 多 水 平 结构 )， 所 以 被 称 为 基于 
设计 的 方法 。 

DBM 在 近 五 六 年 来 逐渐 受到 心理 学 研究 者 的 关注 ， 不 少 模拟 和 实证 研究 表明 它们 能 有 效 处 理 多 水 
平 结构 的 数据 (如 Huang, 2016; McNeish & Stapleton, 2016) ， 且 相对 于 HLM, DBM 有 其 独特 优势 ， 
特别 是 在 含 多 水 平 误差 的 单 水 平 研究 情境 下 。 通过 对 各 学 科 多 水 平分 析 相 关 文 献 的 回顾 和 梳理 , 可 以 总 
结 出 以 下 3 种 较 值得 推荐 的 DBM. 
3.1 组 稳健 标准 误 

第 一 种 常见 的 DBM 是 组 稳健 标准 误 法 (cluster-robust standard errors, CRSE) ， 它 通过 改变 回归 系 
数 方差 〈 即 标准 误 的 平方 ) 的 计算 方式 来 校正 OLS 的 标准 误 。 对 于 非 嵌 套 结构 的 数据 ， 标 准 的 单 水 平 
可 归 可 以 用 方程 Y=XPte 来 表示 ， 其 中 了 是 一 个 nxl 的 因 变 量 向 量 ，B 是 一 个 pxl 的 回归 系数 向 量 ， 义 
是 一 个 nxp 的 设计 和 矩阵，s 是 一 个 nxl 的 残 差 向 量 。 回 归 系数 有 的 方差 可 通过 下 式 估计 : 


var(B) = (XTX) XTE(es™ XXX)! 


C1) 


如 果 残 差 项 e 是 假定 独立 同 分 布 的 (服从 均值 为 0、 方 差 为 0 的 正 态 分 布 ) ， 则 公式 (1) 可 以 简化 为 : 


var 人 ss) = 0 (X17) 


(2) 


计算 varBos) 对 角 线 元 素 的 平方 根 ， 即 得 到 基于 OLS 的 系数 标准 误 (McNeish et al., 2017) 。 


若 数据 存在 多 水 平 结构 ， 残 差 项 包含 多 水 平 变异 ， 此 时 残 差 方差 非 齐 性 ， 违 反 同 分 布 假设 ; 同 组 内 
残 差 相关 不 为 0， 违反 独立 假设 。CRSE 分 别针 对 非 同 分 布 和 非 独 立 问 题 对 标准 误 进 行 校 正 。 对 于 非 同 
分 布 问题 ， 简 式 〈2) 假定 方差 齐 性 ， 会 误 估 回归 系数 方差 ， 进 而 误 估 标准 误 。 因 此 ，CRSE 放弃 该 简 


式 而 采用 求 取 varh) 的 完整 公式 即 公式 CL) 。 而 对 于 非 独 立 问题 ，CRSE 


中 间 项 TE(es7)X BBO 也 7E(sjs7)Y ;， 可 以 更 解 为 各 组 内 个 体 水 平 的 残 差 项 案 合 形成 j 个 新 


的 处 理 方式 是 将 公式 (1) 的 


的 基于 组 间 水 平 的 残 差 项 , 用 于 计算 标准 误 。 数据 依存 性 表现 在 组 内 水 平 ， 而 组 间 水 平 假定 满足 独立 性 
假设 通常 是 合理 的 ， 所 以 上 述 校正 解决 了 独立 性 问题 。 有 关 CRSE 更 多 的 技术 细节 可 以 参考 Cameron 


和 Miller (2015) 。 


使 用 CRSE 的 主要 前 提 假 设 是 : 不 同 组 间 的 观测 数据 不 相关 (McNeish et al., 2017) 


。 这 种 方法 的 


特点 在 于 , 不 仅 可 以 用 于 控制 单 水 平 研究 中 的 多 水 平 误差 , 也 可 以 直接 用 于 分 析 层 2 水 平 变 量 的 固定 效 


应 ， 做 专门 的 多 水 平 研究 。 而 且 很 容易 输出 R 统计 量 作为 效应 量 指标 ， 相 较 之 下 HLM 计算 效应 量 要 
复杂 许多 。 另 外 ， 大 量 的 统计 软件 支持 该 方法 (如 Mplus、R、SPSS、SAS 和 Stata) ， 使 其 具备 了 广泛 


点 用 的 条 件 。 


CRSE 的 一 个 主要 不 足 在 于 ， 它 仅仅 是 对 回归 系数 标准 误 的 校正 ， 并 不 校正 回归 系数 本 身 。 回 归 系 
数 估计 的 准确 性 依赖 于 单 水 平 回 归 原 本 采用 的 参数 估计 方法 〈 如 OLS 或 极 大 似 然 估计 ) 


据 或 组 内 相关 系数 Cintraclass correlation coefficient, ICC) 极 高 的 数据 中 可 能 存在 问题 (McNeish et al., 


。 这 在 纵向 数 


2017)。 好 在 至 少 横 截 面 研究 中 , 即便 是 OLS, 回归 系数 估计 也 是 准确 的 (Huang, 2018; McNeish, 2014a)， 


3.2 广义 估计 方程 


任何 多 水 平分 析 方 法 的 主要 作用 仅仅 是 准确 估计 回归 系数 标准 误 。 这 保证 了 CRSE 整体 - 


上 的 可 靠 性 。 


第 二 种 常见 的 DBM 是 广义 估计 方程 (generalized estimating equations, GEE; Liang & Zeger, 1986) 。 
它 的 基本 步骤 是 : 先 由 研究 者 设 定 一 个 反映 组 内 观测 值 相关 关系 的 工作 相关 和 矩阵 〈working correlation 
matrix) 的 结构 ， 然 后 ， 在 假定 误差 独立 的 前 提 下 (忽略 多 水 平 结构 ， 如 同 单 水 平 回归 那样 〉 拟 合 回归 


模型 ， 求 得 回归 系数 和 残 差 ， 再 使 月 


a 


上 一 步 得 到 的 残 差 信 息 估计 出 工作 相关 和 矩阵 的 初始 值 ， 以 符合 研究 
者 设 定 的 结构 ， 并 用 工作 相关 矩阵 估计 结果 变量 〈 在 每 组 内 ) 的 协 方差 矩阵 ， 更 新 回归 系数 和 标准 误 ， 


以 反映 观测 值 之 间 的 依存 性 ; 通过 不 断 地 在 更 新 的 工作 相关 和 矩阵、 结果 变量 的 协 方差 矩阵 以 及 回归 系数 


SHTMEZIAIEN, 直至 回归 系数 在 两 次 欠 代 之 间 不 再 有 明显 的 变化 ， 模 型 收敛， 回归 系数 的 估计 至 此 结 
W: 最 后 用 前 文 介 绍 的 CRSE 来 校正 标准 误 。 有 关 GEE 更 多 的 技术 细节 可 以 参考 McNeish (2019) 。 
使 用 GEE 主要 的 前 提 假 设 是 : (1) 不 同 组 间 的 观测 数据 不 相关 ; (2) ESE EY Bee 
于 真实 结构 (McNeish et al., 2017) 。 该 方法 不 仅 像 CRSE 一 样 ， 可 以 直接 分 析 层 2 水 平 变量 ， 还 具有 
一 个 其 它 DBM 没有 的 独特 优势 : 适合 分 析 追 踪 数 据 和 类 别 结果 变量 (McNeish, 2014b; McNeish et al., 
2017) 。 这 使 其 成 为 功能 最 为 全 面 的 DBM。GEE 的 相对 局 限 在 于 ， 没 有 可 用 的 效应 量 以 及 拟 合 评价 指 
标 ， 不 利于 研究 者 评价 效应 大 小 和 模型 拟 合 。 
3.3 固定 效应 模型 
固定 效应 模型 (fixed effects model, FEM) 通过 将 多 水 平 数据 中 的 组 别 标识 变量 设 定 为 旺 变 量 纳入 
回归 模型 《比如 学 生 嵌 套 于 学 校 时 ， 可 将 学 校 编号 设 为 哑 变 量 ) ， 控 制 了 所 有 层 2 水 平 变异 ， 从 而 避免 
分 析 层 1 变量 间 关 系 时 受到 误差 非 独 立 性 的 影响 (McNeish & Kelley, 2019) 。 以 学 生 髓 套 于 学 校 为 例 ， 


假定 X 和 了 分别 是 学 生 层面 的 自 变量 和 因 变 量 ， 学 校 共 有 3 个 ， 则 固定 效应 模型 可 以 用 下 式 表 示 : 


Y = yo +PX +8, +725. +r (3) 


其 中 ,，B 是 了 对 XX 的 回归 系数 ， 它 表示 对 于 所 有 学 校 而 言 层 1 自 变 量 对 因 变 量 的 平均 效应 ，S 和 $ 分 
别 为 学 校 1 和 2 所 代表 的 哑 变 量 ， 学 校 3 为 参照 组 ，yo 表示 参照 组 的 因 变量 均 分 ，y1 和 ys 分 别 表示 学 
校 1、2 和 学 校 3 在 因 变量 得 分 上 的 均值 差异 ，r 是 残 差 项 ， 仅 代表 层 1 水 平 误差 。 

使 用 FEM 主要 的 前 提 假 设 是 : 残 差 服 从 正 态 分 布 (McNeish & Kelley, 2019) 。 该 方法 最 大 的 优势 
是 ， 所 有 层 2 水 平 变异 被 完全 控制 。 这 带 来 两 个 好 处 : (1) 完全 消除 了 HM 等 其 它 多 水 平分 析 方 法 
可 能 出 现 的 因 遗 漏 必要 的 层 2 协 变 量 而 导致 的 估计 偏差 (McNeish & Kelley, 2019) ; (2) 对 于 多 水 平 
结构 数据 ， 通 常 要 给 所 有 层 1 自 变量 做 组 均值 中 心 化 (group mean centering, GMC) 处理， 避免 回归 系 
数 因 混入 层 2 效应 而 不 准确 ( 方 杰 等 , 2010) 。OLS、HLM、CRSE 和 GEE 都 需要 这 个 步骤 。 但 FEM 
由 于 控制 了 一 切 层 2 变异 ， 不 用 做 中 心 化 处 理 就 已 经 能 获得 可 靠 的 层 1 回归 系数 ， 精 简 了 操作 。 另 外 ， 
FEM 应 用 门槛 极 低 ， 对 统计 软件 近乎 没有 要 求 ， 任 何 能 做 回归 分 析 的 软件 就 能 做 FEM。 

FEM 的 主要 缺点 在 于 ， 它 不 能 像 其 它 DBM 那样 分 析 层 2 变量 ， 只 能 分 析 层 1 效应 ， 其 次 ，FEM 
视 层 2 抽样 单位 为 固定 而 非 随机 的 ， 因 此 无 法 将 分 析 结 果 推 论 到 未 抽样 的 层 2 单位 中 。 不 过 , 在 含 多 水 
平 误差 的 单 水 平 研究 情境 ， 由 于 层 2 组 数 过 少 ， 即 便 是 HLM， 也 很 难 将 结果 推论 到 其 它 层 2 单位 ， 所 
以 这 个 缺陷 不 是 大 问题 。 

3.4 基于 设计 的 方法 的 共同 优势 

3.4.1 契合 含 多 水 平 误差 的 单 水 平 研究 情境 

当 单 水 平 研究 含 多 水 平 误差 时 , HLM 分 析 随 机 效应 的 核心 优势 变 得 多 余 其 至 累 殉 。 与 之 不 同 , DBM 
天 生 不 具备 分 析 随 机 效应 的 能 力 ， 其 主要 作用 就 是 在 单 水 平 研究 中 消除 多 水 平 误 差 这 一 “噪音 ”， 保 证 


层 1 回归 系数 标准 误 估计 的 准确 性 ， 既 满足 了 单 水 平 研究 的 主要 需求 ,又 没有 功能 上 的 浪费 , 方法 和 研 
究 问题 更 契合 。 
3.4.2 更 少 的 假设 和 更 大 的 参数 估计 稳健 性 

DBM 不 能 设 定 随机 效应 ， 使 其 避免 了 对 随机 效应 相关 假设 的 依赖 ， 从 而 减少 了 因 这 类 假设 被 违反 
而 面临 的 风险 ， 具备 更 好 的 稳健 性 。 这 在 含 多 水 平 误差 的 单 水 平 研究 中 是 一 个 重要 优势 ， 因 为 此 时 这 些 
假设 更 难 检验 且 更 难 满 足 。 比 如 ，McNeish (2019) 的 模拟 和 实证 研究 表明 ， 当 遗漏 随机 斜率 和 随机 斜 
率 非 正 态 时 ，GEE 都 能 保持 参数 估计 的 准确 , 而 HLM 则 出 现 层 1 标准 误 低 估 问 题 。 由 于 CRSE 是 GEE 
的 一 个 步 又， 在 组 内 相关 系数 较 小 的 横 截 面 研究 中 基本 等 价 于 GEE， 可 以 预期 CRSE 在 类 似 的 条 件 下 
也 有 较 好 的 稳健 性 。 此 外 ，McNeish 和 Stapleton (2016) 的 一 项 模拟 研究 发 现 , 在 层 2 样本 容量 极 少 时 ， 
HLM 对 层 1 回归 系数 的 95% 置 信 区 间 覆 盖 率 偏 低 ， 系 数 标准 误 低估 ， 而 FEM 表现 良好 。 这 也 说 明了 
FEM 的 相对 稳健 性 。 
3.4.3 更 少 的 收敛 问题 

杂 的 随机 效应 设 定 给 模型 的 收敛 带 来 更 大 的 麻烦 (McNeish & Stapleton, 2016) , DBM 不 关注 随 
机 效应 使 得 由 此 带 来 的 收敛 问题 大 大 减少 。 不 少 模 拟 研究 表明 ，CRSE、GEE 以 及 FEM 的 收敛 率 都 要 
高 过 HLM (Bolin etal., 2019; Huang, 2018; McNeish, 2019) 。 实 证 研究 也 有 相关 证 据 。 如 在 朱 瑜 和 谢 
WAR (2018) 的 一 项 含 多 水 平 误差 的 单 水 平 中介 研 究 中 ， 作 者 首先 采用 HLM 建 模 ， 未 能 收敛 ， 转 而 使 


用 CRSE 就 没有 出 现 问 题 。 


in 


3.4.4 模型 简洁 

DBM 还 有 一 个 突出 优势 在 于 其 模型 简洁 。DBM 既 不 需要 研究 者 考虑 每 个 变量 究竟 属于 哪个 层级 ， 
也 不 需要 像 HLM 一 样 将 模型 残 差 分 解 到 不 同 水 平 上 ,而 是 把 所 有 层级 变量 和 残 差 都 放 在 同一 个 单 水 平 
回归 模型 中 。 这 样 ， 模 型 基本 形式 得 以 简化 。 比 如 ， 对 于 一 个 含有 层 2 水 平 误差 的 单 水 平 中 介 模 型 〈《 即 


1-1-1 型 中 介 模 型 ; 方术 等 , 2010) ， 所 建立 的 HLM《 假 定 斜率 无 随机 效应 ) W: 


层 1: M; = Pmo; +m; (Xy -X p+ mi (4) 
JB 2: Buoj =Yuoo +YmoX j +4moj (5) 
层 2: Bary = Yio (6) 
层 1: Y; = Broj + Byij(Xy - Xj) + By2j My - M.j) + ryy 7) 
JB 2: Broj = Yro +YrorX j +YyoM j + uyo; (8) 
层 2: Brij = Yyio (9) 


层 2: By2; = Yro C10) 


:202203.00003v1 
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其 中 X; 和 Mj 是 自 变 量 和 中 介 变 量 的 组 均值 ， 代 表 两 个 变量 的 组 间 成 分 ，Xij-Xj; 和 Mi-Mj 是 自 变 量 和 中 
介 变 量 的 组 均值 离 均 差 ， 代 表 两 个 变量 的 组 内 成 分 ，ywoo yn 是 中 介 变 量 和 因 变 量 的 截 距 项 ，Ywmo 和 
ymo 是 中 介 效 应 前 段 路 径 系 数 a 的 组 内 效应 和 组 间 效 应 ;yyzo 和 yyo 是 中 介 效 应 后 段 路 径 系 数 b 的 组 内 
效应 和 组 间 效 应 ; yyio 和 yyoi 是 控制 了 Mi 的 中 介 作 用 后 自 变 量 Xi 对 7; 的 直接 效应 c' 的 组 内 成 分 和 组 间 
成 分 umo 和 rw 是 Mi 的 层 2 及 层 1 残 差 项 ，zuw 和 ry, FE Yi 的 层 2 BIR 1 RAE 

上 述 方程 组 共 包 含 7 个 方程 ，17 种 系数 ， 方 程 存在 嵌 套 关系 ， 且 所 有 符号 至 少 双重 、 最 多 三 重 下 
标 ( 这 是 因为 至 少 需要 用 符号 i 和 j 来 表示 层 1 个 体 和 层 2 组 织 ) ， 如 果 还 想 加 上 随机 斜率 ， 模 型 将 进 


一 步 复杂 化 。 但 若 采用 CRSE 和 GEE， 模 型 可 以 简化 为 ; 


M =yy +4,(X -Xm)+a,Xm+ ry C11) 


Y = yy +c' (X - Xm)+c', Xm+b,(M - Mm)+b,Mm+ r, (12) 


上 述 公 式 与 单 水 平 回归 的 基本 形式 并 无 不 同 ， HLM Fike PY Xj. Mj. XiX jx Mi-M jx Ymoo` Yroo` Ym10~ 


Yuoir Yy20> Yro Yrio> Yyory Umojtrmij 和 Uyojtr yj TINA Xm, Mm, (X-Xm) ~ (M-Mm) ~ Ym Yrs aw 
ap bys bps Cys Co mw 和 疡 替代 ， 由 于 变量 和 误差 不 用 分 层 标记 和 放置 ， 方 程 减少 到 2 个 ， 系 数 减少 
到 10 种 ， 下 标 最 多 一 级 。 

如 果 使 用 FEM 假设 层 2 抽样 单位 为 3 个 ) ， 模 型 还 可 以 进一步 简化 : 


M =Yy +4X +¥yi81t+¥y2S2+%u (13) 


Y=yy +c'X +bM + yy,S, + Yy2S> +y (14) 


N 
lm 


上 述 模 型 不 仅 不 必 分 层 , 还 因为 组 别 标识 旺 变 量 解释 了 所 有 层 2 变异 , 不 需要 对 层 1 变量 进行 组 均值 中 
心 化 以 及 将 组 均值 纳入 模型 ， 只 要 使 用 原始 的 X 和 MY 分 数 ,就 可 以 准确 估计 单 水 平 中 介 效 应 , 比 CRSE 
和 GEE 还 简单 。 几 种 方法 对 应 的 中 介 模 型 如 图 1， 可 见 从 左 到 右 模型 越 来 越 简洁 。 
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图 1 含 多 水 平 误差 的 单 水 平 中 介 模 型 〈 左 : HLM; 中 : CRSE 和 GEE; 4: FEM) 


AZ, DBM 比 HLM 更 简洁 直观 ， 模 型 系数 的 意义 一 目 了 然 。 研 究 者 只 要 熟悉 单 水 平 回归 ， 就 可 
以 和 DBM 无 颖 衔接 ， 且 对 分 析 结 果 的 解释 也 和 单 水 平 回 归 一 样 。 
3.4.5 操作 简单 

DBM 建 模 的 简洁 直接 反映 在 统计 操作 上 。 以 CRSE 为 例 ， 该 方法 在 Mplus 软件 中 很 容易 实现 ， 对 


同一 个 模型 进行 分 析 时 , 比 HLM 的 操作 命令 简单 。 首先, HLM 的 analysis 命令 需要 依 研究 水 平 的 不 同 、 


u 


关注 随机 效应 的 变化 而 变化 ，CRSE 只 要 固定 使 用 “estimator=mlr; type= complex;” 这 两 条 命令 ， 第 二 ， 
在 variable 和 model 部 分 ， 多 层 线性 模型 都 要 按 变 量 层级 分 别 设 定 命令 〈 此 部 分 尤其 容易 出 错 ) ， 而 


CRSE 只 需 像 单 水 平 回 归 一 样 设 定 变量 和 模型 ， 不 必 分 层 ; 第 三 ，CRSE 能 直接 用 画图 功能 输出 模型 图 ， 


HLM 则 不 能 。 除了 CRSE, 其 它 DBM 也 很 容易 操作 ，GEE 和 FEM 都 能 在 SPSS 中 实现 窗口 化 操作 COL 
附录 ) ， 即 通过 点 击 鼠 标 完 成 操作 ， 而 非 编写 程序 代码 。 


3.4.6 运行 高 效 
DBM 由 于 不 分 析 随 机 效应 , 软件 运行 速度 均 明显 快 于 HLM。HLM 运行 时 间 大 大 依赖 于 随机 效应 、 

收敛 标准 、 样 本 容量 和 所 用 软件 。 比 如 ， 一 个 包含 3 个 随机 效应 的 HLM 车 采用 自 适应 高 斯 积分 求解 需 

18 个 小 时 收敛 ,采用 线性 化 方法 求解 需 8 分 钟 收敛 , 而 同样 的 分 析 使 用 GEE 只 需 3 秒 (McNeish, 2019)。 

3.5 小 结 

在 心理 学 研究 领域 ，DBM 作为 一 种 较 新 的 多 水 平 数 据 分 析 方 法 ， 使 研究 者 不 必 跳 出 单 水 平 研究 的 

逻辑 框 染 这 一 “舒适 区 ”， 即 可 有 效 控制 多 水 平 误差 ,准确 分 析 变 量 关 系 ， 且 具 备 假设 更 少 、 模 型 简洁 、 


操作 简单 、 运 行 高 效 及 稳健 性 好 的 特征 ， 在 单 水 平 研究 情境 下 较 好 蔡 代 了 HLM 。 
=k, DBM 并 非 没 有 局 限 。 所 有 DBM 共同 的 问题 在 于 ， 随 机 效应 只 能 控制 不 能 分 析 。 比 如 ， 如 


果 研 究 者 想 了 解 不 同 高 校 的 教师 平均 情绪 智力 与 职业 倦 仍 的 关系 是 否 有 差异 , 可 以 通过 建立 带 有 随机 斜 
率 的 多 层 线性 模型 来 分 析 这 个 问题 。 进 一 步 地 ， 研 究 者 还 可 以 针对 特定 的 学 校 做 统计 分 析 ， 即 每 个 高 校 
的 教师 平均 情绪 智力 对 职业 倦 合 的 效应 具体 是 多 大 。 对 于 上 述 这 些 问题 , HLM 是 唯一 可 用 的 分 析 手 段 ， 
DBM 无 能 为 力 ， 它 只 能 就 教师 情绪 智力 与 职业 倦 印 的 关系 在 所 有 学 校 的 平均 水 平 上 做 一 个 整体 推断 ， 
尽管 对 单 水 平 研究 而 言 这 已 经 足够 。 
4 应 用 实例 

下 面 用 一 组 模拟 生成 的 数据 来 展示 本 文 介绍 的 DBM 控制 单 水 平 研究 〈 以 1-1-1 型 中 介 为 例 ) 中 的 
多 水 平 误差 的 效果 ， 并 与 OLS. HLM 做 比较 。 根 据 已 有 研究 〈 方 杰 等 , 2010) ， 这 类 中 介 效 应 可 分 解 
为 组 间 中 介 (高 层级 中 介 效 应 ， 见 图 1 左 图 层 2 部 分 模型 ) 和 组 内 中 介 部 分 〈 低 层级 中 介 效 应 ， 见 图 1 
左 图 层 1 部 分 模型 ) ， 后 者 反映 的 才 是 单 水 平 意义 上 的 中 介 效 应 ， 因 此 我 们 只 关注 后 者 《简便 起 见 组 内 
中 介 前 、 后 段 路 径 系数 直接 用 a Alb 表示) 。 系 数 a 和 4。 的 真 值 均 为 0.30， 它 们 对 应 的 标准 误 真 值 分 别 
为 0.029 和 0.041; 中 介 效 应 ab 真 值 为 0.09， 其 标准 误 真 值 为 0.016。 为 较 好 地 模拟 单 水 平 研究 存在 多 
水 平 误差 的 情境 ( 层 2 样本 容量 很 小 ， 层 1 样本 容量 较 大 ) ， 我 们 生成 的 数据 层 2 样本 容量 仅 为 3 组， 
每 组 200 人 ， 层 1 总 样本 容量 为 600 人 ， 接 近 通 常 的 整 群 抽样 效果 。 因 变量 了 和 中 介 变 量 M HY ICC 分 
别 是 0.96 和 0.30， 数 据 存 在 明显 多 水 平 结构 。 

分 别 用 OLS、 预 测 变 量 〈( 包 括 自 变量 和 中 介 变 量 ) 组 均值 中 心 化 后 的 OLS (OLS-GMC) 、HLM.、 
CRSE、GEE 和 FEM 分 析 数 据 《〈 操 作 模 板 见 附录 ) 。 所 有 方法 ， 除 了 OLS 和 FEM， 其 它 方法 均 预先 对 


H 


预测 变量 做 组 均值 中 心 化 处 理 。 结 果 表 明 《〈 见 表 2) : 除了 中 介 前 段 路 径 外 ，OLS 对 中 介 模 型 中 其 它 系 
数 和 标准 误 的 估计 都 明显 偏 高 。 在 对 预测 变量 做 组 均值 中 心 化 处 理 之 后 ，OLS 估计 回归 系数 的 偏差 完 
全 消除 ， 但 系数 b All ab 的 标准 误 仍然 明显 偏 高 。 以 上 结果 证 明 ，OLS 如 果 不 对 标准 误 做 任何 校正 ， 是 
无 法 控制 多 水 平 误 差 的 。 

对 于 所 有 DBM # HLM, 回归 系数 估计 都 是 精确 的 ，3 种 DBM 对 模型 中 所 有 标准 误 的 估计 偏差 都 
很 小 (除了 CRSE 的 ab 标准 误 相对 估计 偏差 稍 高 于 10%) ， 而 HLM 对 所 有 标准 误 的 估计 都 偏 低 。 总 
的 来 看 ， 参 数 估 计 FEM 表现 最 佳 ，GEE 其 次 ，CRSE 又 次 之 ，HLM 表现 相对 最 差 。 

就 操作 过 程 来 说 ,FEM 最 简单 ， 不仅 能 通过 SPSS 窗口 化 操作 ， 还 不 用 像 其 它 方法 一 样 中 心 化 和 控 
制 组 间 变 量 ， 只 需 使 用 X 和 M 的 原始 分 和 组 别 标识 哑 变 量 。 此 外 ， 借 助 PROCESS 这 一 流行 的 SPSS 
FP 介 调 节 分 析 插 件 ，FEM 能 同时 实现 依次 检验 法 和 系数 乘积 法 并 输出 bootstrap 区 间 (HLM 给 不 出 
bootstrap 区 间 ) ， 还 可 以 完成 很 多 复杂 中 介 和 调节 混合 模型 的 窗口 化 操作 。GEE 也 可 以 通过 SPSS 窗口 
化 操作 ， 只 是 不 能 直接 检验 系数 乘积 。CRSE 和 HLM 都 需要 编写 Mplus 语句 完成 ， 不 过 CRSE 不 涉及 


分 层 操作 〈 即 与 between 和 within 有 关 的 命令 ) ， 比 HLM 操作 简单 ， 也 更 不 易 出 错 。 


ul} 


中 


全 


表 2 各 方法 对 中 介 模 型 中 国定 效应 及 其 标准 误 的 估计 值 


中 介 前 段 路 径 Ca) 中 介 后 段 路 径 Cb) 中 介 效 应 (ab) 
方法 
B SE B SE B SE 

OLS 0.308" 0.033 2.794 0.147 0.860 0.104 
OLS-GMC 0.303 0.027 0.287 0.229 0.087 0.070 

HLM 0.303 0.022 0.287 0.030 0.087 0.010 

CRSE 0.303 0.027 0.287 0.037 0.087 0.013 

FEM 0.303 0.027 0.287 0.044 0.087 0.016 

GEE 0.303 0.030 0.287 0.044 


iE: 用 SPSS 中 的 GEE 无 法 直接 检验 ab 系数 乘积 。”，p<0.001。 
5 方法 选择 建议 

以 上 介绍 了 可 以 在 单 水 平 研究 中 控制 多 水 平 误差 的 方法 , 那么 在 应 用 研究 中 应 当 如 何 选择 方法 呢 ? 
基于 研究 者 的 实际 研究 目的 和 各 方法 的 特点 ， 这 里 提出 以 下 建议 : 

(1) 考虑 到 DBM 更 加 匹配 单 水 平 研究 情境 , 当 研 究 者 HLM 知识 基础 不 足 且 对 随机 效应 分 析 没 有 
需求 时 ,推荐 优先 选用 DBM. 而 在 各 种 DBM 当中 , 考虑 到 FEM 参数 估计 的 精确 性 最 高 , 操作 最 简单 ， 
而 且 很 容易 和 PROCESS 结合 起 来 实现 各 种 复杂 模型 的 窗口 化 分 析 ， 建 议 优先 选择 FEM. 

(2) 如 果 除 了 层 1 效应 ， 研 究 者 也 想 分 析 一 下 某 些 层 2 固定 效应 ， 如 层 1 自 变量 的 情境 效应 ， 那 


么 FEM 无 能 为 力 , 此 时 建议 优先 选择 GEE 或 CRSE, 但 使 用 这 两 种 方法 时 层 2 样 本 容量 不 要 太 小 (Huang， 
2018; McNeish & Stapleton, 2016) 。 

(3) 当 研 究 者 具备 足够 的 HLM 基础 ， 且 需要 探讨 随机 效应 时 ， 应 当 特 意 收集 多 水 平 数据 ， 特 别 
是 保证 层 2 样本 容量 充足 。 若 模型 能 够 收敛 ， 建 议 研究 者 使 用 包含 所 有 可 纳入 随机 效应 的 HLM， 并 以 
稳健 极 大 似 然 估计 (robust maximum likelihood estimator, MLR) 作为 参数 估计 方法 ， 这 样 能 尽 可 能 减少 
由 随机 效应 假设 违反 导致 的 问题 ， 并 实现 对 随机 效应 的 分 析 。 

(4) 无 论 HLM 还 是 DBM， 分 析 数 据 都 要 用 到 组 别 标识 变量 。 即 便 是 做 单 水 平 研究 ， 也 建议 在 收 
取 数 据 时 保留 各 层 抽样 单位 的 组 别 标识 信息 ， 以 免 煞 据 实 际 层 级 超过 预 设 水 平 ， 导 致 无 法 控制 多 水 平 误 
差 ， 从 而 降低 研究 结果 的 可 靠 性 。 
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附录 控制 单 水 平 中 介 分 析 中 的 多 水 平 误差 的 软件 操作 


HLM 的 Mplus 语句 


DATA: FILE = 示例 数据 .csv; 


VARIABLE: NAMES = id y group x m xc mc xm mm; 


!group 组 别 标识 变量 ;xc、mec 自 变量 和 中 介 变 量 的 组 均值 离 均 差 ，xm、mm 自 变 量 和 中 介 变 量 组 均 1 


II 


Usevariables= y group xc mc xm mm; 


CLUSTER=group:! 指 定 组 别 标识 变量 


ji 


WITHIN = xc me; ! 指 定 层 1 变量 


BETWEEN = xm mm; ! 指 定 层 2 变量 


ANALYSIS: estimator=MLR; TYPE = TWOLEVEL; 


MODEL: %WITHIN% 


y on xc me; mc on xe; ! 设 定 层 1 模型 
%BETWEEN% 
y on xm mm; mm on xm; ! 设 定 层 2 模型 


MODEL indirect: y ind xc; ! 分 析 中 介 模 型 组 内 成 分 


OUTPUT: STANDARDIZED(STDYX); 

CRSE 的 Mplus 语句 

DATA: FILE = 示例 数据 .csv; 

VARIABLE: NAMES = id y group x m xc mc xm mm; 


Usevariables= y group xc mc xm mm; 


CLUSTER=group; 


ANALYSIS: estimator=MLR; TYPE=COMPLEX; ! 使 | 


MODEL: y on xm mm xc mc; me on xc; mm on xm; ! 不 分 层 设 定 模型 


model indirect: y ind xc; 
output: STANDARDIZED(STDYX); 


FEM 的 SPSS 窗口 操作 步骤 


1、 在 SPSS 菜单 栏 依 次 选择 : 转换 一 一 创建 虚 变量 ， 将 组 别 标 识 变 量 group 选 入 右 侧 输入 框 。 然 后 输入 


用 原始 变量 名 称 group 即 可 ) 并 点 击 “ 确 定 ”， 然 后 在 生成 的 组 


I 


2、 在 SPSS 菜单 栏 依次 选择 ;分析 一 一 


MEE m 分 别 选 入 对 应 的 输入 


IHI 


表 简 单 中 介 模 型 ) ， 然 后 “确定 ” 即 可 


GEE 的 SPSS 窗口 操作 步骤 


, 并 将 生成 的 组 别 标识 四 


归 一 一 PROCESS〔 默 认 


o 


CRSE 的 关键 指令 


1、 在 SPSS 荣 单 栏 依 次 选择 : 分 析 一 一 广义 线性 模型 一 一 广义 估算 方程 。 


N 
s 
~ 
和 
Lol 


ER” AMF: 将 分 组 变量 group 选 入 


3、“ 响 应 ”选项 卡 : FRR RAS. ATA 


“主体 变量 ” 框 ， 并 在 


P 介 前 段 路 径 时 将 中 介 


4、“ 预 测 变量 ”选项 卡 ， 指定 前 因 变量 。 分 析 中 介 前 段 路 径 时 将 


选 入“ 协 变量 ” 框 ， 分 析 中 介 后 段 路 径 时 将 


变量 ) 都 先入 “ 协 变量 ” 框 。 


变量 根 名 称 (使 
昌 别 标识 哑 变 量 中 任意 删 去 一 列 。 
已 安装 PROCESS 插件 ) ， 将 自 变 量 x、 因 变量 y 和 中 


U 


m 选 入 ; 分 析 中 介 后 段 路 径 时 将 因 


变量 选 入 协 变量 框 (Covariates ) 。 Model number 选择 4 R 


“ 协 方差 矩阵 ” 单 选 框 中 选择 “基于 模型 的 估计 量 ”。 


变量 y 选 入 。 


(包括 离 均 差 xe 和 组 均值 xm, 


5、“ 模 型 ”选项 卡 : 将 所 有 预测 变量 选 入 “模型 ” 框 ， 然 后 点 击 “ 确 定 ”。 


ani 


TER: 因为 是 依次 检验 法 ， 


F 介 前 后 两 段 路 


径 要 分 两 次 进行 操作 。 


t2 个 变量 ) 


自 变 量 和 中 介 变 量 (包括 变量 的 离 均 差 xc、mec 和 组 均值 xm、mm， 共 4 个 


Controlling for Clustering in Single Level Study: 
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Abstract In social science research fields, single-level research often adopts cluster sampling or multi-stage sampling to obtain 


samples, resulting in the fact that the data structure is multi-level. Thus, researchers have to control for errors from the higher 


level in their single-level studies. 


Hierarchical linear model (HLM) suffers from limitations in dealing with such issue. First, HLM's unique advantage to 


focus on random effects and cluster-specific inferences cannot be reflected in single-level research. Second, the disadvantages of 
HLM are amplified in single-level research. (1) HLM's assumptions about random effects are harder to satisfy and test. Violation 
of these assumptions may result in parameter estimation bias. (2) HLM is more likely to produce convergence problems. (3) For 
single-level studies, HLM is complex in theory, modeling, software operation and interpretation of results. Thus, HLM is difficult 
to generalize in a single level study with multi-level error. 

Design-based methods (DBM), including cluster-robust standard errors (CRSE), generalized estimation equation (GEE), 
and fixed effects model (FEM), represent a category of logical and valid procedures to analyze multi-level data. By correcting for 
the standard errors of fixed effects, DBM circumvents the issues of partitioning residuals and variables into different levels while 
accurately estimate parameters. Thus, DBM can address multi-level data within the single-level framework, which is very 
friendly to single-level researchers. 

Contrast to HLM, DBM is more parsimonious in modeling, simpler in operating, more efficient in running and more robust 
in estimating for single-level research. Therefore, at least under the condition of single-level research with multi-level error, 
DBM is an ideal alternative to HLM. 

After a detailed introduction of DBM and its advantages, a simulation data set were used to demonstrate the effectiveness 
of DBM in controlling for multi-level error in single-level mediation studies (i.e., 1-1-1 mediation model). The results showed 
that although both HLM and DBM were accurate in estimating the within-cluster component of the mediating effect, the former 
underestimated the standard errors of mediating effect and each mediating path coefficient. In addition, all of the DBMs are 
simpler than HLM in terms of operations, especially the FEM. FEM is not only possible to operate through SPSS, but also 
unnecessary to center the variables in level 1 and control between-cluster variables. What’s more, through the popular SPSS 
mediating analysis macro PROCESS, FEM can realize both casual steps approach and coefficients product approach with 
bootstrap confidence interval for various complex mediation models. 

Finally, following suggestions were given for practitioners to select appropriate methods to accommodate clustering in 
single-level research. (1) DBM is suggested to control the multi-level error in single-level study, especially FEM. (2) If 
researchers are interested in between-cluster fixed effects, CRSE and GEE is recommended. (3) When researchers have sufficient 
background knowledge of HLM, and need to focus on random effects, they should collect multi-level data deliberately, especially 
to ensure that the sample size of level 2 is sufficient. (4) It is recommended to retain the cluster identification information when 
collecting data, so as to prevent the actual level of data from exceeding the expectant level, leading to the failure to control the 
multi-level error. 


Key words single-level research; clustered data; hierarchical linear model; design-based methods 


